查看原文
其他

微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之SILVA

2017-08-13 生信控

文:向屿 | 编辑:湖心

本文系原创转载需授权


微生物多样性专题 

扩增子测序分析实战(二)


数据库整理之SILVA

今天要继续跟大家介绍一个微生物常用数据库SILVA,加上本期,已经连续四期在介绍微生物的数据库了,可能大家有些审美疲劳了,没关系,后面还有...


老规矩,先上官方主页:

https://www.arb-silva.de/

SILVA是一个rRNA基因序列的综合数据库,收录原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)和大亚基rRNA基因序列(简称LSU,即23S和28SrRNA)。

        LSU: Large subunit (23S/28S ribosomal RNAs)

        SSU: Small subunit (16S/18S ribosomal RNAs)


目前SILVA最新数据库版本为SILVA 128,最新一次更新时间为2016年9月28日,数据库下载路径:

https://www.arb-silva.de/no_cache/download/archive/current/Exports/


128版本数据统计如下:

在上表中,以SSU为例,不同的数据过滤条件得到不同的子数据库(Parc、Ref和NR 99),接下来一一讲解:

Parc:最全也是最冗余的数据库,需要满足如下条件:

1、 alignment identity value >= 50

2、 alignment quality value >= 40

3、 basepair score or sequence quality >= 30

Ref:在Parc的基础上进行过滤,需要满足如下条件:

1、 Bacteria and Eukarya  sequences >= 1,200 bases;Archaea sequences >= 900 bases

2、 alignment identity value >= 70

3、 alignment quality value >= 50

4、 basepair score or sequence quality >= 30

Ref NR 99:

SSU Ref NR 99是专门为了微生物研究而生的. 将 SSU Ref 加上大规模测序计划 HSM/MWM/GNHM 得到的序列, 使用USEARCH以 99% 相似度为标准聚类, 只留下相似度低于 99% 序列, 希望创造一个能代表微生物多样性, 且去冗余的数据库。【OTU聚类分析中,我们还会讲到USEARCH】


所以为了提高分析准确性,减少冗余,我们将使用Silva 128版本的NR99数据,可以直接用该链接下载:

https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz



解压后是一个序列文件,名为SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta


可以看到NR99数据集中共包含645151条序列,与上表统计一致,序列文件格式如下:


值得注意的是:

1、SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta中同时包含16S和18S两种序列,根据实际需求,可以拆分成16S的数据库和18S的数据库。

2、与RDP数据库的序列文件类似,但是稍有不同的地方在于,RDP数据库中给定了每条序列的注释,且明确其注释所属的水平(界门纲目科属种),但是上示SILVA的注释并没有明确其注释物种分别属于哪些分类水平。【哈,有些盆友可能已经反应过来上期taxdmp数据库的用处了,别着急整理文件,接着往下看】

3、发现一个有趣的现象,同一条序列在SILVA和NCBI上出现了较大差别的注释:

如上,同一条序列,在SILVA自带的序列注释中为细菌,而在NCBI中的注释则为真核,从比对结果来看,NCBI的注释结果更准确,故在整理SILVA的数据库时,使用SILVA的序列,但同时使用NCBI的注释【而不是SILVA序列文件中自带的注释】,SILVA官方提供了NCBI对应注释信息的下载:

https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/taxonomy/taxmap_ncbi_ssu_ref_nr99_128.txt.gz

解压缩后数据格式如下:

4、同样,该注释信息中无法明确得知物种的分类水平,所以很容易联想到,我们还需要一个文件,该文件能够知道每个物种对应的rank信息,这就是我们上期为什么要提到taxdmp数据库。【错过上期和忘性较好的小伙伴自行补习吧~】

5、关于该文件中含有<>格式的物种注释,我们在上期也有提到,是因为该物种名称有重复的情况下,会用<>进一步区分,而它们对应的rank可能是不同的,所以一定要考虑进去,否则可能会得到错误的rank!!


此时,我们拥有了以下文件:

1、SILVA下载的原始序列文件 SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta;

2、序列对应的物种注释文件 taxmap_ncbi_ssu_ref_nr99_128.txt;

3、整理NCBI taxdmp得到的物种对应rank文件 Tax_Rank_Annotation;


需要注意的是,Tax_Rank_Annotation是更新的,但是taxmap_ncbi_ssu_ref_nr99_128.txt 的更新可能跟不上,所以会造成两者关联的时候,某些物种会对不上以 Gemmata sp. IIL30 为例,其在早前的names.dmp中是存在的,如下:


但是在更新names.dmp生成的Tax_Rank_Annotation里不存在该物种,是因为在新的names.dmp中该物种改名了:


同理,还有其他的很多物种存在更换名称的情况,故需要对此进行调整,即让 Tax_Rank_Annotation【上期 NCBI taxdmp 数据库整理获得】中包含所有可能出现的物种名称及其对应的rank信息!然后再在最终的物种注释文件中将所有名称统一成 scientific name 就完成啦!


总结一下整理步骤

1、提取SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta中的序列;

2、由1中的序列对应taxmap_ncbi_ssu_ref_nr99_128.txt中的物种注释;

3、基于 Tax_Rank_Annotation给2中的物种注释添加rank信息,并将所有物种名称换成scientific name;

4、根据实际需要,可考虑将16S和18S的数据库拆分开。


最终文件列表如下:


生物多样性专题历史文章

扩增子测序分析实战(一)前景概要

扩增子测序分析实战(二)数据库概述

扩增子测序分析实战(二)数据库整理之RDP

扩增子测序分析实战(二)数据库整理之taxdmp



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存